====================================================================================
整个的数据集包含1,599 种红酒,以及 11 个关于酒的化学成分的变量。至少 3名葡萄酒专家对每种酒的质量进行了评分,分数在 0(非常差)和10(非常好)之间。
数据集概述
## [1] 1599 13
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
葡萄酒质量
我们首先通过调查葡萄酒质量quality开始探索,测量得分范围在0到10之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
在给定的数据集中,葡萄酒得分在[3,8]范围内,大多数得分为5分到6分。
酒精率
之后我们来观察酒精率alcohol
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
酒精中位分数为10.2%,平均值为10.42%,第三四分位数为11.1%。如上图所示,酒精率图形右偏,这说明大多数葡萄酒的酒精率低于11.1%,只有25%的酒精酒精率超过11.1%
残糖
下面试残糖量residual.sugar的对比,这个指标会影响红酒的甜度。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
绝大多数的红酒残糖量在1.9~2.6之间,而残糖量的图形形成了一个很长的长尾,甚至有的酒残糖量达到了15以上
pH值
下面再就葡萄酒pH值pH的分布进行分析,葡萄酒酸度是其口感的重要指标。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
红酒的pH值平均在3.3左右,最高为4.01最低为2.74,分布形态比较正态,所有值都小于7,都呈现酸性口感。
柠檬酸
我们再来对柠檬酸citric.acid的分布进行讨论,柠檬酸对于葡萄酒的口感会起到调味的作用。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
该图中有两个主峰。第一个在[0,0.02]之间,第二个在[0.48,0.5]的范围内。通过查看情节很难说它的分布。
挥发酸度
volatile.acidity这个属性给出了葡萄酒中醋酸的含量,如果含量过高,会导致不希望得到的醋味
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
该属性的平均值和中位值几乎相等(~ 0.52),似乎是具有正态分布的钟形曲线。但是图形的右侧有一个小尾巴
固定酸度
这是涉及葡萄酒的固定或非挥发性物质的酸性。现在我们来研究fixed.acidity这个属性:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
我们再次看到具有范围4.6~15.9的钟形图。中值为7.9,平均值为8.32
密度
接下来,我们来绘制密度属性density
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0040
密度图看起来正态分布,平均等值为0.9967,中位数等于0.9968。
硫酸盐
sulphates这是一种葡萄酒添加剂,可以促进二氧化硫气体的含量,并起到抗菌和抗氧化剂的作用。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
上面的图表,呈现出一个具有右侧长尾的钟形形态。硫酸盐浓度范围介于0.33至2 之间,平均值为0.6581,中位值为0.6581,彼此非常接近。我们可以得出结论,在大多数葡萄酒中(在给定的数据集中),硫酸盐含量为0.62g / dm3
二氧化硫总量
total.sulfur.dioxide表示SO2的游离和结合形式的量; 在低浓度下,SO2在葡萄酒中几乎检测不到,但是当游离SO2浓度超过50mg / L时,SO2在葡萄酒的鼻子和味道中变得明显
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
从上面的描述来看,我们看到这样低的二氧化硫水平并不令人惊讶。该数据集中75%的葡萄酒二氧化硫值低于62 mg / dm3
游离二氧化硫
在调查二氧化硫总量后,我们来研究游离二氧化硫属性free.sulfur.dioxide,它可以防止微生物的生长和葡萄酒的氧化
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
此图和二氧化硫的图形很相似,其中大部分值低于21 mg / dm3
氯化物
最后,我将研究氯化物的属性chlorides,它给出了葡萄酒中盐的含量
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
这个图也看起来像正态分布,但右侧有一个长尾。
这个整齐的数据集包含1599个红葡萄酒观测数据和12个属性。其中11个属性是葡萄酒的数字物理化学测试结果,1个属性(质量)由0到10的评价数据组成,这是一个分类变量,是葡萄酒专家至少3次评估的中位数。数据集中没有任何缺失值。
由于这个项目旨在找出哪些化学性质影响红葡萄酒的质量,其主要特点是质量。
根据我通过单变量分析的推测,有4个变量会影响葡萄酒的质量,故我下一步分析时会重点分析以下这些变量。
我没有创建任何新变量。
以下的这些图形有较长的长尾,可能是服从对数正态分布的:
首先,我们来研究变量之间的相关性。
通过相关矩阵可以发现,数据集中多数自变量与因变量质量的相关性都非常弱。相关性最强的为酒精度与质量,相关系数0.48,可挥发酸与质量呈现负相关,相关系数为-0.39。其它变量与相关质量的相关系数绝对值都低于0.3。
酒精,挥发酸,柠檬酸和硫酸盐与质量
酒精,挥发性酸度,柠檬酸和硫酸盐是与质量最相关的属性。接下来,我将挖掘这些变量以了解它们与质量的关系
观察后我们发现质量与酒精,柠檬酸和硫酸盐呈正相关,与挥发性酸度呈负相关。
让我们走出一步,计算一个线性模型并总结其结果
##
## Call:
## lm(formula = quality ~ alcohol + volatile.acidity + citric.acid +
## sulphates, data = redwine)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.71408 -0.38590 -0.06402 0.46657 2.20393
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.64592 0.20106 13.160 < 2e-16 ***
## alcohol 0.30908 0.01581 19.553 < 2e-16 ***
## volatile.acidity -1.26506 0.11266 -11.229 < 2e-16 ***
## citric.acid -0.07913 0.10381 -0.762 0.446
## sulphates 0.69552 0.10311 6.746 2.12e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6588 on 1594 degrees of freedom
## Multiple R-squared: 0.3361, Adjusted R-squared: 0.3345
## F-statistic: 201.8 on 4 and 1594 DF, p-value: < 2.2e-16
这4个属性解释了33.45%的质量变化,而柠檬酸在统计学上并不显着,换句话说,柠檬酸和质量之间可能没有关系。
其他相关属性
另外我们来查看下其他比较高的相关属性
二氧化硫总量 vs 游离二氧化硫
二氧化硫总量和游离二氧化硫属性彼此正相关,其值为0.668
固定酸度与密度 & 酒精 VS 密度的关系
固定酸度 & 挥发酸度 vs 柠檬酸
柠檬酸和固定酸度具有正相关性,但挥发性酸度和柠檬酸之间存在负相关性。所以如果醋酸量(挥发性酸度)增加,我们预计柠檬酸减少,反之亦然。
挥发酸度 vs pH值
我们再来看下挥发酸度与pH值。 虽然这两个变量的相关系数为0.235,但看起来它们之间的相关性很弱。只是由于个别数据具有较高的挥发酸度,导致整个图形的相关性成正比例关系。
在调查ggpair情节后,我发现4个属性与质量有关:
观察挥发性酸度和柠檬酸之间的负相关性是非常有趣的。
由于挥发酸度和pH值呈正相关,因此该图也非常有趣。
pH值与固定酸度之间最强的相关性为-0.683
酒精 & 挥发酸度 VS 质量
红酒的口感中酒精和挥发酸度的影响最为主要因素,图中蓝色颜色越深表示酒的品质越差
从图中可发现品质越好的酒越拥有更高的酒精度和更低的挥发酸度
密度 & 酒精 vs 质量
密度和酒精的关系
图形的状态也说明了我的猜测密度和酒精的含量是成反比的
硫酸盐 & 酒精 vs 质量
硫酸盐会影响红酒的口味,我们来看一下硫酸盐与酒精和红酒质量的关系
从图中可以看出,更高评分的红酒拥有更高的硫酸盐含量,说明硫酸盐是影响红酒品质的重要因素,其含量与红酒品质成正比
游离二氧化硫和二氧化硫总量对红酒品质
我们再来看一下二氧化硫对于红酒品质的影响
在这部分调查后我们发现,一下的因素对于制作高品质葡萄酒有所帮助: - 高酒精率 - 高硫酸盐量 - 低挥发酸度 - 低二氧化硫水平
酸度和酒精对于红酒的品质的关系十分有趣,这二者直接并显著影响红酒的质量,而硫酸盐和二氧化硫水平的高低对红酒的质量产生分层,我猜想这是不同红酒各有独特口味的重要原因。
我们来检查酒精水平以及挥发酸度水平和质量水平之间的关系。
该图显示随着质量水平的提高,酒精含量不断增加。所以,酒量的增加可能意味着质量的提高。 而随着质量水平的提高,挥发酸度不断减少。所以,挥发酸度的增加可能意味着质量的下降。
二氧化硫总量与游离二氧化硫含量呈指数线性关系,从点的分布看,较低的二氧化硫含量更倾向于有助于提升葡萄酒质量。
显而易见酒精的含量很大程度决定了红酒的密度,因为酒的密度小于水,所以酒精含量水平越高的样本其密度越低,这也与我们的常识一致。
在整个数据探索和分析过程中,我了解到了影响红酒质量的因素。在进行分析之前只是感性的认识与猜想,而通过可视化的表达,有些猜想被证明了,有些结论让我重新认识和了解了各个要素之间的相关性。
这次分析中主要分析了酒精、酸度、硫化物等权重较大的影响因素。对于残糖、氯化物等因素的分析说不定也会有令人惊喜的发现。另外对于红酒质量的影响应该还与原材料产地、气候、贮藏环境等相关,这也可以在后续的资料收集后进行详细研究与讨论。